Адміністрація вирішила продати даний сайт. За детальною інформацією звертайтесь за адресою: rozrahu@gmail.com

Лаба 5

Інформація про навчальний заклад

ВУЗ:
Національний університет Львівська політехніка
Інститут:
ІКНІ
Факультет:
Прикладна лінгвістика
Кафедра:
Системи автоматизованого проектування

Інформація про роботу

Рік:
2014
Тип роботи:
Лабораторна робота
Предмет:
Комп’ютерна лінгвістика
Група:
ПРЛс
Варіант:
3

Частина тексту файла

МІНІСТЕРСТВО ОСВІТИ І НАУКИ, МОЛОДІ ТА СПОРТУ УКРАЇНИ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ «ЛЬВІВСЬКА ПОЛІТЕХНІКА» Кафедра «Системи автоматизованого проектування» Звіт до лабораторної роботи №5 «Вивчення бібліотеки прикладних програм NLTK, для опрацювання текстів природною мовою. Початкова обробка текстів природною мовою» з курсу «Комп’ютерна лінгвістика» містить такі символи датської та норвезької, як «ø», угорської – «ő», іспанської та бретонської – «ñ» та «ň» – чеської та словацької мов. Розглянемо, як використовується Unicode при обробці текстів, що містять відмінні від ASCII символи. Юнікод – це промисловий стандарт, розроблений для того, щоб зробити можливим для текстів і символів (графічних знаків) усіх писемних систем світу узгоджене представлення (репрезентацію) і обробку комп’ютерами. Юнікод підтримує більш ніж мільйон символів. Кожному символу ставиться у відповідність число, яке називають кодовою точкою. В Python кодові точки записуються у вигляді \uXXXX, де XXXX – чотири символи шістнадцяткового числа. У межах програми обробка стрічок Unicode відбувається аналогічно до звичайних стрічок. Однак, коли Unicode-символи зберігаються у файл або виводяться на екран, вони мають бути закодовані, як потік байтів. Деякі кодування (такі як ASCII та Latin-2) використовують 1 байт для представлення одної кодової точки і відповідно підтримують невеликий набір символів Unicode, достатній для одної мови. Інші кодування (такі як UTF-8) використовують послідовності байтів і можуть представити весь набір символів Unicode. Текст у файлах є в певному кодуванні, і потрібен певний механізм для перетворення його в Unicode. Такий механізм називають декодування. Навпаки записати Unicode-символи у файл або вивести на екран можна тільки попередньо перетворивши їх у потрібне кодування. Таке перетворення називають кодуванням. Тексти програм Варіант №12 1. Напишіть функцію, яка приймає адресу URL як аргумент і повертає те, що міститься за цією адресою з видаленням HTML-розмітки. Використовувати urllib.urlopen для доступу до контенту наступним чином: raw_contents = urllib.urlopen('http://www.nltk.org/').read(). … Збережіть деякий текст у файлі corpus.txt. Визначити функцію load(f) для читання файлу, назва якого є її аргументом і повертає стрічку, яка містить текст з файлу. … Перепишіть наступний цикл як list comprehension:   >>> sent = ['The', 'dog', 'gave', 'John', 'the', 'newspaper'] >>> result = [] >>> for word in sent: ... word_len = (word, len(word)) ... result.append(word_len) >>> result [('The', 3), ('dog', 3), ('gave', 4), ('John', 4), ('the', 3), ('newspaper', 9)]   Перевірити різницю між стрічками і цілим виконавши наступні дії: "3" * 7 та 3 * 7. Спробуйте здійснити конвертування між стрічками і цілими використавши int("3") та str(3). Змінна "3" є стрічкового характеру, тому помноживши її на 7, отримуємо у 7 разів довшу стрічку. Відповідно функція int("3") перетворює стрічкову змінну в цілочисельну, а функція str(3) перетворює цілочисельну змінну в стрічкову.  Що станеться, коли стрічки форматування %6s та %-6s використовуються для відображення стрічки, довшої ніж 6 символів?  Стрічка %6s для стрічок довжиною до шести символів виконує форматування по лівому краю (тобто додає пробіли), а стрічка %-6s – форматування по правому краю. Коли ж стрічка довша за 6 символів, форматування не відбувається. Створіть файл, який буде містити слова та їх частоту записані в окремих рядках через пробіл (fuzzy 53). Прочитайте цей файл, використовуючи open(filename).readlines(). Розділіть кожну стрічку на дві частини, використовуючи split(), і перетворіть число в ціле значення використовуючи int(). Результат має бути у вигляді списку: [['fuzzy', 53], ...].  Міра оцінки читабельності використовується для оцінки складності тексту для читання. Нехай, μw – середня кількість літер у слові, та μs – середнє значення кількості слів у реченні в певному тексті. Automated Readability Index (ARI) тексту визначається згідно виразу: 4.71 μw + 0.5 ...
Антиботан аватар за замовчуванням

27.11.2014 04:11

Коментарі

Ви не можете залишити коментар. Для цього, будь ласка, увійдіть або зареєструйтесь.

Завантаження файлу

Якщо Ви маєте на своєму комп'ютері файли, пов'язані з навчанням( розрахункові, лабораторні, практичні, контрольні роботи та інше...), і Вам не шкода ними поділитись - то скористайтесь формою для завантаження файлу, попередньо заархівувавши все в архів .rar або .zip розміром до 100мб, і до нього невдовзі отримають доступ студенти всієї України! Ви отримаєте грошову винагороду в кінці місяця, якщо станете одним з трьох переможців!
Стань активним учасником руху antibotan!
Поділись актуальною інформацією,
і отримай привілеї у користуванні архівом! Детальніше

Оголошення від адміністратора

Антиботан аватар за замовчуванням

пропонує роботу

Admin

26.02.2019 12:38

Привіт усім учасникам нашого порталу! Хороші новини - з‘явилась можливість кожному заробити на своїх знаннях та вміннях. Тепер Ви можете продавати свої роботи на сайті заробляючи кошти, рейтинг і довіру користувачів. Потрібно завантажити роботу, вказати ціну і додати один інформативний скріншот з деякими частинами виконаних завдань. Навіть одна якісна і всім необхідна робота може продатися сотні разів. «Головою заробляти» продуктивніше ніж руками! :-)

Новини